AI资讯新闻榜单内容搜索- transform

扩散模型训练方法一直错了！谢赛宁：Representation matters

是什么让纽约大学著名研究者谢赛宁三连呼喊「Representation matters」？他表示：「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言，表征也依然有用。基于此，他们提出了 REPA，即表征对齐技术，其能让「训练扩散 Transformer 变得比你想象的更简单。」

来自主题: AI技术研报

3936 点击 2024-10-14 15:22

NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

在当今的人工智能领域，Transformer 模型已成为解决诸多自然语言处理任务的核心。然而，Transformer 模型在处理长文本时常常遇到性能瓶颈。传统的位置编码方法，如绝对位置编码（APE）和相对位置编码（RPE），虽然在许多任务中表现良好，但其固定性限制了其在处理超长文本时的适应性和灵活性。

来自主题: AI技术研报

6831 点击 2024-10-12 14:29

清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

随着诺贝尔物理学奖颁给了「机器学习之父」Geoffrey Hinton，另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构Differential Transformer，从注意力模块入手，实现了Transformer的核心能力提升。

来自主题: AI技术研报

7967 点击 2024-10-10 14:24

Sigmoid注意力一样强，苹果开始重新审视注意力机制

注意力是 Transformer 架构的关键部分，负责将每个序列元素转换为值的加权和。将查询与所有键进行点积，然后通过 softmax 函数归一化，会得到每个键对应的注意力权重。

来自主题: AI技术研报

6521 点击 2024-09-19 11:10

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。

来自主题: AI技术研报

8028 点击 2024-08-31 14:54

Jamba 1.5发布，最长上下文，非Transformer架构首次成功领先

Jamba是第一个基于 Mamba 架构的生产级模型。Mamba 是由卡内基梅隆大学和普林斯顿大学的研究人员提出的新架构，被视为 Transformer 架构的有力挑战者。

来自主题: AI资讯

8285 点击 2024-08-24 10:07

人工智能驱动的科学研究（AI4S）在药物研发与临床实践中的应用进展

在当今数字化时代，人工智能（artificial intelligence，AI）技术迅猛发展，尤其是生成式技术，如ChatGPT（chat generative pre-trained transformer），对人类生活的影响日益深远。

来自主题: AI技术研报

10283 点击 2024-08-19 17:38

机器人策略学习的Game Changer？伯克利提出Body Transformer

过去几年间，Transformer 架构已经取得了巨大的成功，同时其也衍生出了大量变体，比如擅长处理视觉任务的 Vision Transformer（ViT）。本文要介绍的 Body Transformer（BoT）则是非常适合机器人策略学习的 Transformer 变体。

来自主题: AI技术研报

8827 点击 2024-08-19 14:08

首个全自动科学发现AI系统，Transformer作者创业公司Sakana AI推出AI Scientist

一年前，谷歌最后一位 Transformer 论文作者 Llion Jones 离职创业，与前谷歌研究人员 David Ha共同创立人工智能公司 Sakana AI。Sakana AI 声称将创建一种基于自然启发智能的新型基础模型！现在，Sakana AI 交上了自己的答卷。

来自主题: AI资讯

6928 点击 2024-08-18 10:23

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

Mamba 架构的大模型又一次向 Transformer 发起了挑战

来自主题: AI资讯

5890 点击 2024-08-13 17:49